بهبود خلاصه سازی خودکار متون فارسی با استفاده از روش‌های پردازش زبان طبیعی و گراف شباهت

نویسندگان

چکیده مقاله:

A significant amount of available information is stored in textual databases which contains a large collection of documents from different sources (such as news, articles, books, emails and web pages). The increasing visibility and importance of this class of information motivates us to work on having better automatic evaluation tools for textual resources. The automatic summarization of text is one of the ways to prevent the waste of users’ time. The extractive text summarization consists of the extraction of the more important sentences with the purpose of shortening input text while maintaining the topics covered and the subjects discussed. In this paper, we have tried to improve the accuracy of the extracted summaries by combining natural language processing and text mining techniques. By modifying the mentioned algorithms and sentence scoring measures, accuracy is increased as compared to the previously used techniques. Part of speech tagging is used for calculating coefficient of words’ importance. Using this approach will in turn help us with to pick the more meaningful words and phrases that will result in better accuracy of the system. Graph similarity‘s methods are used to select sentences. Changing weight of the selected sentences in each step leads to solve the redundancy problem. Standard evaluation measures such as “Precision” and “Recall” are used to evaluate results based on a Persian corpus.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

سیستم خودکار خلاصه ساز متون فارسی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...

خلاصه سازی خودکار متون فارسی مبتنی بر هستی شناسی

با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های س...

15 صفحه اول

ارائه مدلی جدید جهت خلاصه سازی خودکار متون فارسی با رویکرد معنایی و استخراجی

خلاصه سازی خودکار متون به فرایندی اطلاق می شود که طی آن یک متن بزرگ، ضمن رعایت شرایطی، به متنی با حجم کمتر تبدیل می شود. تاکنون رویکردهای متعددی جهت خلاصه سازی ارائه شده است. در این پایان نامه، ضمن بررسی روش های موجود جهت خلاصه سازی خودکار متون، روش جدیدی با استفاده از رویکردهای مبتنی بر گراف، جهت خلاصه سازی متون فارسی ارائه شده است. در این روش جملات متن ورودی، در یک گراف کامل مدل شده و پس از ت...

15 صفحه اول

سنجش شباهت نظرات داوری آزاد و محتوای مقالات علمی به‌روش پردازش زبان طبیعی

هدف: شناسایی قابلیت داوری‌های آزاد در بازشناخت مقالات پزشکی براساس شباهت آنها به مقالات مربوط. روش‌شناسی: آزمونی متشکل از 2212 مقاله اف‌هزار ریسرچ و نظر‌ات داوری آنها ساخته شد. 100 مقاله به‌عنوان مدرک پایه به­صورت تصادفی انتخاب شد. شباهت نظرات داوری و محت...

متن کامل

ارائه سیستم خلاصه ساز متون فارسی برمبنای ویژگی های زبان شناختی و رگرسیون

Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document Summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence,...

متن کامل

خلاصه سازی ماشینی آماری متون فارسی

در این تحقیق سیستمی جهت خلاصه سازی آماری متون فارسی طراحی و پیاده سازی شده است.

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 33  شماره 2

صفحات  885- 914

تاریخ انتشار 2018-03

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023